连续静默语音识别模型试图解码人们在脑海中阅读的内容。它可以被认为接近于读心术问题,其中思想也被解码。沿着这个方向的研究可以使有严重认知障碍的人使用 Siri、Alexa、Bixby 等虚拟助手,从而提高技术的可访问性。它还可以使有认知障碍的人与其他人交流。连续静默语音识别技术还可以让士兵和科学家在敏感的工作环境中进行秘密通信。最后,连续静默语音识别技术可以为身体健全的人引入一种新的基于思想的交流形式。脑电图 (EEG) 是一种通过将 EEG 传感器放置在受试者的头皮上来测量人脑电活动的非侵入性方法。即使空间分辨率较差,EEG 信号也具有很高的时间分辨率。另一方面,皮层电图 (ECoG) 是一种测量人脑电活动的侵入性方法。 ECoG 信号具有与 EEG 信号相似的时间分辨率,但比 EEG 信号具有更好的空间分辨率和信噪比 (SNR)。ECoG 的主要缺点是它是一种侵入性程序,需要受试者接受脑部手术才能植入 ECoG 电极。在这项工作中,我们使用非侵入性 EEG 信号来解码受试者的想法或执行连续无声语音识别。在 [1, 2, 3] 中,作者展示了使用 EEG 信号进行孤立和连续语音识别,这些信号是在受试者大声说出英语句子和听取有限英语词汇的英语话语时并行记录的。[2, 3, 1] 中的作者使用端到端自动语音识别 (ASR) 模型,如连接主义时间分类 (CTC) [4]、注意模型 [5] 和传感器模型 [6] 将 EEG 输入特征直接转换为文本。在 [7, 8] 中描述的一项最新工作中,作者展示了直接从 EEG 特征合成语音的可行性。尽管在[3]中,作者们利用被动聆听过程中记录的脑电图信号展示了语音识别,但他们的实验
主要关键词